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面向 氢 词 表 更 新 的 新 术语 分 布 特征 研究 ” 
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中 国 科学 技术 信息 研究 所 ”北京 100038 


摘要 : [目的 /意义 ] 为 增强 叙 词 表 实 用 性 ,需要 不 断 地 将 领域 中 出 现 的 新 术语 更 新 到 氢 词 表 中 ,更 新 维护 
过 程 中 ,从 时 间 及 词 频 等 角度 对 新 术语 分 布 特征 进行 探索 研究 ,可 以 为 新 术语 发 现 方法 提供 参考 。[ 方 法 /过 
程 ] 基 于 新 术语 相关 特征 ,结合 对 应 文档 频率 在 时 间 点 和 时 间 段 上 的 发 展 分 布 , 通 过 相关 统计 分 析 , 研 究 术 语 在 
不 同 成 长 时 期 的 分 布 特征 ,尤其 界定 术语 在 开始 期 与 成 长 期 的 分 布 差异 。[ 结果 /结论 ] 实证 分 析 表 明 新 术语 
一 般 处 于 术语 发 展 的 成 长 期 , 当 候选 新 术语 保持 正 向 增长 趋势 超过 一 定年 限 , 可 以 认为 该 术语 同时 具有 新 颖 
性 、 时 间 持 续 性 及 术语 性 特征 。 基 于 该 分 布 特征 进行 领域 新 术语 的 识别 ,结合 词 表 编制 专家 的 判断 ,该 方法 在 
新 术语 收录 判断 中 具有 较 高 的 准确 率 , 且 能 有 效 识 别 实际 应 用 中 占 比 较 多 的 低频 词 。 
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一 和 叙 词 表 又 称 主题 词 表 ,是 以 规范 化 、 受 控 的 和 动态 
性 的 术语 作为 基本 成 分 ,用 于 标 引 、 存 储 和 检索 文献 的 
-SS 卫 情 报 语言 词汇 表 '"。 如 今 , 叙 词 表 不 仅 是 图 书 情 
氢 学 科 重 要 的 基础 工具 ,更 被 广泛 应 用 于 自然 语言 
婚 玫 .机 器 翻译 .知识 抽取 ,数据 挖 气 、 本 体 构建 等 研究 
领域 。 在 信息 海量 激增 的 当下 ,优质 且 更 新 维护 及 时 
的 叙 词 表 或 术语 集合 ,是 以 上 各 研究 领域 的 重要 基石 。 
随 逢 很 多 学 科 领 域 不 断 深入 快速 发 展 ,有 很 多 已 出 现 
且 需 要 及 时 被 该 领域 叙 词 表 收录 的 术语 ,本 文 称 这 部 
个 术语 为 新 术语 。 及 时 发 现 新 术语 以 更 新 相应 的 氢 词 
表 , 对 于 把 握 学 科 领 域 发 展 及 相关 研究 应 用 都 具有 重 
要 作用 所 。 当 前 , 叙 词 表 的 编制 和 更 新 主要 依赖 于 专 
家 的 手工 劳动 ,而 网 络 环境 下 各 个 专业 领域 中 新 术语 
大 量 涌现 ,使 得 手工 更 新 的 方式 远 远 滞后 于 新 术语 的 
增长 速度 ,需要 研究 科学 的 方法 发 现 新 术语 以 提高 叙 
词 表 更 新 效率 ,使 之 紧 跟 领 域 的 发 展 。 本 文 以 (汉语 主 
题词 表 》"" 中 已 收录 术语 为 例 ,获取 文献 数据 库 中 对 应 
领域 的 文献 元 数据 ,根据 文献 关键 词 在 对 应 发 表 年 份 
的 文档 词 频 值 形成 关键 词 对 应 的 时 间 序 列 , 基 于 新 术 
语 的 新 颖 性 ,时间 持续 性 以 及 术语 性 等 特征 ,利用 统计 


分 析 方 法 研究 术语 文档 频率 ( document frequency , DF) 
随时 间 的 成 长 分 布 ,探索 术语 在 成 长 不 同时 期 的 分 布 
差异 ,尤其 界定 术语 从 出 现 到 成 熟 阶段 的 相关 特征 ,以 
探究 候选 新 术语 满足 什么 条 件 可 以 更 新 到 叙 词 表 中 ， 
最 后 结合 该 术语 分 布 特征 识别 领域 新 术语 。 


1 相关 研究 


新 术语 发 现 是 叙 词 表 更 新 维护 的 重要 一 环 , 相 关 
研究 主要 集中 在 候选 术语 的 自动 获取 ,以 及 对 其 进行 
识别 判断 上 , 即 判断 候选 新 术语 的 成 熟 程 度 ,确保 叙 词 
表 收 录 的 新 术语 不 是 偶发 词 ,出 现 一 段 时 间 就 不 再 被 
使 用 ,而 是 兼 具 新 术语 的 新 颖 性 `. 时 间 持 续 性 .专业 性 
及 规范 性 相关 特征 。 

1.1 候选 术语 获取 

氢 词 表 更 新 维护 中 ,首先 需要 获取 尽 可 能 多 具有 
独立 成 词 能 力 的 词 作为 候选 术语 ,再 利用 氢 词 表 已 收 
录 术 语 及 停 用 词 等 进行 过 滤 获 得 候选 新 术语 。 目 前 ， 
氢 词 表 选 词 来 源 一 般 包括 :文献 提供 的 关键 词 、 用 户 使 
用 的 检索 词 .各 类 词典 中 的 专业 词汇 资源 、 用 户 通 过 相 
关 平 台 给 出 的 推荐 词 以 及 网 络 词汇 等 ;也 包括 从 自然 
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语言 中 抽取 获得 的 候选 新 术语 。 

通过 自然 语言 处 理 获 取得 到 候选 新 术语 的 方法 主 
要 有 基于 规则 、 基 于 统计 和 将 两 者 融合 的 方法 。 基 于 
规则 的 术语 发 现 方法 指 的 是 利用 文本 语 料 的 语言 结构 
寺 征 ,制定 例如 词性 规则 ` 组 块 规则 、 停 用 词 过 滤 规 则 、 
字 串 长 度 过 滤 规 则 等 识别 术语 ;还 有 一 种 就 是 基于 词 
的 上 下 文 边界 特征 来 制定 规则 ” ,比如 后 停 词 过 滤 规 
则 前 缀 过 滤 词 典 \ 后 级 过 滤 词 典 、 相 邻 词 过 滤 规 则 等 。 
基于 统计 的 术语 发 现 方法 ,一 种 是 基于 传统 的 词 频 、 互 
信息 、 最 大 似 然 比 ,TF -IDF 等 统计 方法 ;另外 一 种 则 是 
基于 机 器 学 习 的 方法 ,主要 集中 在 有 监督 的 机 器 学 习 
Ji E^ ,例如 支持 向 量 机 、 隐 马尔 科 夫 模 型 .最 大 信 


模型 .条 件 随机 场 、 规 则 学 习 算 法 、 朴 素 贝 叶 斯 、N - 


Cram 等。 无 论 基于 规则 还 是 基于 统计 都 各 有 利 整 ; 
基于 规则 的 方法 比较 繁琐 上 且 通 用 性 差 ,基于 统计 的 方 
噪声 结果 比较 多 "。 目 前 ,主要 采用 的 是 将 两 者 融 
舍 交 混合 策略 :一 是 采用 规则 先 获取 候选 词汇 ,再 通过 
3 的 方法 得 到 最 终结 果 ; 二 是 先 统计 .再 通过 规则 来 
识别 要 发 现 的 术语 ;三 是 同时 有 效 融合 语言 学 和 统计 
党 入 征 的 方法 。 比 较 有 代表 性 的 混合 策略 方法 及 . 
Fiarlzi EH HI C-value/NC value ,以 及 在 其 基础 上 ,由 
8CPIG ^S" 、 胡 阿 沛 等 、 韩 红旗 等 '” 提出 的 改进 策 
只 ,混合 策略 的 使 用 有 效 结合 了 基于 规则 及 基于 统计 
方 泌 的 优势 ,可 以 识别 一 些 多 词 术语 ,长 术语 以 及 典 套 
检 短 等 低频 术语 ,效率 较 高 。 

1.09 新 词 识别 判断 

-三 新 术语 发 现 一 般 需要 在 候选 新 术语 的 基础 上 , 依 
据 莉 术语 的 相关 特征 在 候选 新 术语 中 做 进一步 筛选 ， 
以 判断 该 候选 新 术语 是 否 可 以 增加 到 对 应 的 叙 词 表 
中 。“ 新 " 则 必然 考虑 新 术语 出 现 的 时 效 性 及 新 颖 性 
特征 ,M，Wang 等 认为 时 间 变 化 特征 可 以 提供 很 多 文 
本 处 理 信息 ,特别 是 对 于 新 闻 检 测 问题 ,他 们 利用 与 时 
间 相 关 的 动态 特征 构建 了 新 词 识别 模型 "; 黄 轩 
等 ”分 岗 等 \ 吴 悦 等 "在 各 自 的 新 词 发 现 研 究 中 
都 以 某 一 时 间 为 界 , 将 语 料 分 为 背景 语 料 和 前 景 语 料 ， 
认为 如 果 某 一 候选 词 在 背景 语 料 中 很 少 ,而 在 前 景 语 
料 中 大 量 出 现 , 则 它 很 可 能 是 一 个 新 词 。 识 别 判断 新 
词 的 方法 通常 可 应 用 到 新 术语 识别 中 ,但 其 只 考虑 到 
了 候选 术语 出 现 的 时 间 节 点 问题 ,认为 只 要 一 个 词 自 
某 时 间 节 点 出 现 , 且 词 频 达 到 一 定 程 度 则 可 以 认为 其 
满足 被 收入 词 表 的 条 件 。 事实 上 ,有 大 部 分 新 词 在 出 
现 后 很 快 就 消亡 了 ,只 有 少 部 分 新 词 能 存活 下 去 ,继而 
逐渐 发 展 为 术语 1" 。 
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总 之 ,就 目前 的 研究 现状 而 言 ,抽取 获得 候选 新 术 
语 的 方法 相对 较 多 且 比 较 成 熟 , 但 候选 新 术语 一 般 不 
能 直接 作为 新 术语 增加 到 令 词 表 中 ,需要 进行 一 定 的 
识别 判断 ,目前 该 工作 主要 依靠 领域 专家 进行 人 工 判 
断 ,不 符合 大 数据 时 代 新 术语 量 激增 的 现状 ,但 相关 研 
究 依然 较 少 且 存 在 一 定局 限 性 。 例 如 ,人 工 判定 新 术 
语 具 有 主观 性 , 且 效 率 低 不 及 时 ;新 术语 形成 时 间 
具有 模糊 性 ,新 词汇 出 现 不 代表 会 持续 在 领域 内 通用 
成 为 术语 ;术语 本 身 由 于 不 同 专 指 程度 在 实际 应 用 中 
会 有 数据 量 的 较 大 差异 , 单 从 频数 角度 可 能 会 把 累计 
权重 不 高 的 术语 直接 剔除 等 。 因 此 有 必要 根据 新 术语 
相关 特征 研究 新 术语 的 成 长 分 布 情况 ,特别 是 界定 术 
语 从 出 现 到 成 熟 阶段 的 分 布 变化 ,以 探究 候选 新 术语 
满足 什么 分 布 特性 可 以 更 新 到 人 氢 词 表 中 ,而 不 单 从 出 
现时 间 及 词 频数 量 的 角度 进行 判断 。 


2 新 术语 相关 特征 及 成 长 分 布 特征 

所 谓 新 术语 是 指 未 曾 收录 到 相应 领域 词 表 中 , 且 
在 领域 内 某 一 时 间 节 点 之 前 没有 出 现 过 ,或 虽然 偶发 
但 曾经 没有 持续 出 现时 间 的 术语 。 总 结 新 术语 相关 特 
征 ,基于 其 新 颖 性 时 间 持续 性 以 及 术语 性 特征 研究 新 


术语 的 时 间 分 布 及 文档 词 频 分 布 特征 ,并 以 《汉语 主题 
词 表 》 中 已 收录 术语 为 例 ,探究 不 同 词 频 量 水 平 .不 同 
生命 周期 长 度 术语 的 成 长 分 布 状况 。 
2.1 新 术语 相关 特征 

判断 一 个 候选 新 术语 是 和 否 可 以 更 新 到 叙 词 表 中 ， 
其 应 同时 具备 两 方面 的 特征 :一 是 具有 术语 的 单元 性 、 
术语 性 特征 。 单 元 性 是 指 术语 必须 具有 独立 成 词 能 
力 ; 术 语 性 则 指 术语 要 同时 具有 规范 性 和 专业 性 两 方 
面 的 特征 。 其 中 ,规范 性 指 的 是 术语 在 某 一 特定 专业 
范围 内 被 广泛 使 用 ,专业 性 指 术语 具有 领域 相关 性 ,一 
般 在 特定 领域 中 流通 使 用 。 二 是 具有 新 颗 性 时间 持 
续 性 特征 。 新 颖 性 指 从 时 间 参 照 角 度 , 新 术语 是 自 某 
一 时 间 点 以 来 首次 出 现 的 具有 新 词 形 、 新 词义 或 者 新 
法 的 词汇 ;从 词 表 参照 角度 ,新 术语 是 指 通 过 各 
种 途径 产生 的 具有 目前 词 表 中 基本 词汇 所 没有 的 新 形 
R ,新 意义 或 新 用 法 的 词语 "”"。 时 间 持 续 性 特征 则 指 
该 术语 的 存在 是 持续 的 ,而 不 是 在 出 现 后 很 快 就 会 消 
亡 。 本 次 研究 重点 关注 的 是 具有 新 词 形 的 新 术语 ， 
此 ,下 文中 提 到 的 新 术语 均 指 此 类 。 

依据 以 上 新 术语 相关 特征 ,并 假设 候选 新 术语 已 
获取 , 即 候选 新 术语 已 经 确定 是 领域 内 未 收录 的 .具有 
独立 成 词 能 力 的 词 。 本 文 以 《汉语 主题 词 表 》 中 已 收 
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录 术 语 的 成 长 分 布 为 例 ,探究 关于 判断 候选 新 术语 能 
否 加 入 到 词 表 中 的 相关 分 布 特征 方法 。 
2.2 ”基于 新 颖 性 及 时 间 持续 性 的 新 术语 时 间 分 布 特征 

新 术语 具有 新 颖 性 ,同时 也 必须 具有 时 间 持 续 性 。 
利用 词 表 已 收录 术语 对 候选 术语 进行 过 滤 , 获 得 未 出 
现在 叙 词 表 中 的 候选 新 术语 ,对 候选 新 术语 ,在 时 间 分 
布 上 有 如 下 特性 : 自 某 个 时 间 点 起 的 一 定时 间 段 内 候 
选 新 术语 持续 出 现 ,其 中 时 间 点 是 指 具体 的 某 个 时 间 
蕉 ,具有 定位 性 ,例如 某 一 年 甚至 某 一 个 具体 日 期 ;而 
时 间 段 则 指 选 定 的 一 个 时 间 范围 ,具有 历程 性 ,是 有 起 
点 、 有 终点 还 有 长 度 范围 的 一 段 时 间 *。 

用 三 元 组 (w, t, qf) 表示 候选 新 术语 w 在 第 4 年 
的 文档 词 频 为 df, 记 在 统计 时 ,w 的 最 早 时 间 点 为 4， 
洱 吕 同时 也 是 该 术语 一 个 连续 出 现时 间 段 了 的 起 点 ， 
NUS. 1 为 候选 新 术语 的 出 现时 间 点 s, 其 中 时 间 段 了 
越 长 越 好 ,在 新 术语 识别 研究 中 ,一 般 选 取 离 研究 较 近 
j 有 时间 点 作为 时 间 段 的 终点 。 若 t。 只 是 一 个 偶发 值 ， 
RGEC t, ) =0 , 则 选择 往 后 新 的 出 现时 间 点 作为 bn 进行 
判断 ,直至 找到 s。 例 如 通过 中 国 知 网 数据 库 (http:// 
wew enki. ne ) 统 计 电力 工业 领域 内 含 “无 线 充电 ”一 
证 移 文 章 数 , 即 文档 词 频 ,统计 结果 见 表 1。 术 语 “无 
线 痪 电 "在 文献 库 中 最 早出 现 的 时 间 点 为 2000 年 , 记 
to =2000 ,而 df(2001) =0,df(2002) =1; 则 =2002， 
又 一 (2003) = df(2004) = df(2005) =0,df(2006) = 
2 0f c. -2006,df(2006 +i,i € T) >0, 则 “无 线 充电 ” 
一 词 的 出 现时 间 点 s = t, = 2006, 则 研究 时 间 段 定 为 
2006. -2017 年 。 

O 表 1 “无 线 充电 "一 词 文档 词 频 逐 年 统计 


年 份 t ”文档 词 频 df | 年份 tt 文档 词 频 df | 年 份 G ”文档 词 频 df 
2000 2 2009 3 2014 132 
2002 1 2010 12 2015 169 
2006 2 2011 19 2016 156 
2007 4 2012 51 2017 198 
2008 1 2013 88 
基于 新 颖 性 和 时 间 持 续 性 特征 ,提出 结合 时 间 点 、 


时 间 段 两 个 角度 ,判断 术语 出 现时 间 点 的 方法 , 即 选择 
一 个 连续 时 间 段 的 起 点 作为 观察 术语 成 长 分 布 的 起 
点 ,而 不 是 直接 选择 统计 的 最 早出 现时 间作 为 术语 成 
长 分 布 的 起 点 。 事 实 上 , 当 一 个 词汇 在 以 年 为 时 间 点 
的 研究 时 间 段 内 出 现 断 点 ,恰恰 说 明 其 不 具有 规范 性 ， 
在 领域 内 还 尚未 被 广泛 使 用 ,无 法 称 之 为 术语 。 
2.3 基于 术语 性 的 新 术语 文档 词 频 分 布 特征 

术语 性 包括 规范 性 和 专业 性 两 个 特征 ,规范 性 是 


指 术 语 在 某 一 特定 专业 范围 内 被 广泛 使 用 ,专业 性 指 
术语 具有 领域 相关 性 。 再 结合 术语 新 颖 性 .时 间 持 续 
性 特征 , 即 当 候选 新 术语 能 被 相关 领域 学 者 普遍 接受 ， 
能 在 出 现 后 较 长 一 段 时 间 , 仍 持续 被 使 用 在 领域 内 不 
同 的 科技 论文 中 时 ,可 认为 其 是 新 术语 。 本 文通 过 统 
计数 据 库 中 , 某 一 领域 历年 包含 某 候选 术语 文献 的 文 
献 频数 , 即 文档 频率 的 分 布 情况 来 反映 术语 的 规范 性 
与 专业 性 。 对 分 布 情况 进行 研究 ,其 意义 在 于 不 同 术 
语 的 研究 热度 有 所 区 别 , 相 应 的 数据 量 差异 较 大 ,通用 
的 单 从 频数 角度 判断 术语 通用 性 的 方法 存在 其 局 限 
性 。 常 春 等 ”基于 生态 学 理论 “Logistic 生物 种 群 增长 
模型 ”, 将 单个 生物 种 群 个 体 数量 增长 过 程 与 叙 词 表 术 
语 对 应 文档 频数 增长 过 程 相 类 比 ,总 结 术 语词 频 变 化 
规律 ,并 提出 术语 成 熟 的 生命 周期 变化 特征 , 即 根据 对 
应 的 文档 词 频数 量变 化 ,将 一 个 成 熟 术 语 的 生命 周期 
划分 为 开始 期 .成 长 期 以 及 饱和 期 等 多 个 阶段 。 

基于 上 述 考虑 ,本 文 同样 从 文档 词 频 分 布 角度 出 
发 ,并 假设 存在 一 个 特殊 时 间 点 ,术语 在 时 间 点 前 属于 
“开始 期 ”, 词 频 少 且 无 明显 增长 ; 而 在 该 时 间 点 后 词 
频 忽然 增 大 , 且 在 往 后 一 定时 间 范 围 内 保持 正 向 增长 
趋势 , 称 该 时 间 点 为 候选 新 术语 的 “ 正 向 增长 转折 
点 ”, 而 该 时 间 点 往 后 保持 正 向 增长 的 时 间 段 则 称 为 术 
语 的 “成 长 期 ;再 往 后 术语 增长 幅度 开始 出 现 正 负 范 
围 的 小 幅度 浮动 ,但 大 体 上 保持 在 一 个 稳定 的 词 频数 
量 级 上 , 称 这 一 发 展 时 间 段 为 术语 的 “饱和 期 ”。 为 有 
效 量化 分 布 趋势 的 波动 情况 ,本 文 计算 了 时 间 段 内 术 
语文 档 词 频 逐 年 的 环比 增长 率 (ring growth , rg) , 见 公 
式 1。 当 环比 增长 率 值 为 正 , 表 明 术 语文 档 词 频 相 比 
去 年 有 所 增加 ,反之 亦 然 。 

词 频 环 比 增长 率 rg = (本 时 间 点 词 频 - 上 一 时 间 
点 词 频 )/ 上 一 时 间 点 词 频 公式 1 

关于 “ 正 问 增长 转折 点 ”的 确定 ,用 三 元 组 (w, t, 
rg) 表示 候选 新 术语 w 在 第 t 年 对 应 的 词 频 环比 增长 
率 为 1g, 而 tg=[df(t;) - df(t; ,) ]/ dfCt; ,) ,逐年 计算 
w 的 rg 值 并 判断 其 大 小 。 假 设 第 t; 年 rg EWIE, H. t; 
年 往 后 超过 5 年 以 上 rg ERFARE, M ti 为 该 术 
语 的 正 向 增长 转折 点 。 若 xg (n) 虽然 为 正 值 ,但 rg 
(tia) <0, 则 选择 往 后 新 的 rg 值 进行 判断 ,直至 找到 
新 的 正 向 增长 转折 点 。 例 如 根据 表 1 中 术语 “无 线 充 
m" 的 文档 词 频 统计 其 对 应 环比 增长 率 ,统计 结果 见 表 
2,9} rg (2007) =1 >0,{H rg(2008) = -0.75 <0, iij rg 


(2009) 20, H. 2009 年 往 后 超过 5 年 的 数据 其 对 应 rg 值 
均 大 于 0, 即 该 术语 的 正 向 增长 转折 点 确定 为 2009 年 ， 
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一 般 当 术语 处 于 成 长 期 超过 一 定年 限 ,例如 超过 5 年 ， 
即 “ 无 线 充电 ”一 词 于 2014 年 就 可 以 考虑 将 其 更 新 到 叙 
词 表 中 。 另 外 ,以 上 虽然 以 0 作为 对 rg FA E, 
但 应 该 允许 有 小 幅度 的 误差 存在 ,可 根据 实际 情况 调整 
该 阔 值 大 小 ,例如 一 个 比较 接近 0 的 负数 。 
表 2 “无 线 充 电 ” 一 词 文 档 词 频 环比 
KE (rg) 逐年 统计 


4E t 1g(u) HEH ti rg(t;) 年 份 ti rg(ti) 
2006 2010 3 2014 0:5 
2007 1 2011 0.583 2015 0.280 
2008 -0.75 2012 1.684 2016 -0.077 
2009 2 2013 0.725 2017 0. 269 


面向 叙 词 表 更 新 展开 的 新 术语 分 布 特征 研究 , 重 
与 区 分 术语 开始 期 与 成 长 期 的 分 布 差异 。 当 候选 新 术 


TEE JE MA] ,其 对 应 文档 词 频 量 少 且 增长 不 明显 ,不 
认为 其 具有 术语 特征 , 尚 不 能 更 新 到 对 应 叙 词 表 中 。 
形 礁 期 的 确定 本 身 需 要 通过 一 段 时 间 观 察 获得 ,为 了 


区 加 将 新 术语 更 新 到 叙 词 表 中 ,观察 时 间 也 不 宜 太 久 ， 
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(e) 术语 “无 线 充电 ” 


m— 文档 频数 曲线 


e 环比 增长 率 曲线 


需要 确定 相关 阔 值 ,例如 确定 正 向 增长 转折 点 后 的 第 
5 年 及 以 上 ,可 认为 该 术语 可 以 更 新 到 叙 词 表 中 。 
2.4 4 个 不 同类 别 术语 的 分 布 特征 

术语 本 身 由 于 不 同 专 指 程度 在 实际 应 用 中 会 有 使 
用 频次 的 较 大 差异 , 苏 其 龙 ” 在 新 词 发 现 研究 中 根据 
新 词 频数 及 生命 周期 长 短 ,将 新 词 分 为 以 下 4 个 类 别 : 
短期 高 频 词 .短期 低频 词 .长 期 低频 词 和 长 期 高 频 词 。 
本 文 根 据 术 语 的 文档 词 频 统 计数 据 , 从 连续 出 现时 间 
段 了 的 长 度 以 及 文档 词 频数 量 等 级 出 发 , 当 T 了 为 15 年 
及 以 下 ,认为 其 为 短期 ,大 于 15 年 则 为 长 期 ; 当 最 大 
DF 值 <500 ,认为 其 属于 低频 词 , 反 之 为 高 频 词 ,以 此 
标准 将 2014 版 4 汉语 主题 词 表 》 中 已 收录 术语 同样 分 
为 以 上 4 类 ,并 依次 以 短期 高 频 词 云 计 算 ”\ 长 期 低频 
词 “ 连 铸 ”\ 短 期 低频 词 " 无 线 充 电 ”\ 长 期 高 频 词 “数字 


图 书馆 ”为 例 ,给 出 各 自 的 文档 分 布 统计 情况 及 对 应 的 
环比 增长 率 值 ,生成 4 个 统计 趋势 图 对 比 统一 显示 为 
如 图 1 所 示 : 
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(d) 术语 “数字 图 书馆 ” 


注 : 每 个 折线 图 左 侧 的 主要 纵 坐 标 轴 表 示 文 档 频数 刻度 , 右 侧 次 要 纵 坐 标 轴 表 示 环 比 增长 率 刻 度 , 横 坐 标 轴 表 示 年 份 ;阴影 部 分 是 本 文 


确定 的 该 术语 “成 长 期 "阶段 


~ 
7 


1 4 个 术语 文档 词 频 分 布 及 对 应 环比 增长 率 
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雷 晓 ， 常春 , 刘 伟 . 面向 叙 词 表 更 新 的 新 术语 分 布 特征 研究 [J]. 图 书 情报 工作 ,2019 ,63 (20) :121 - 128. 


图 1 中 (a) 是 信息 科技 领域 术语 “ 云 计算 ”一 词 的 
文档 词 频 在 近年 来 随时 间 的 分 布 情况 ,以 及 对 应 的 环 
比 增长 率 结果 ,从 时 间 点 及 时 间 段 两 个 层次 上 ,“ 云 计 
算 " 一 词 的 最 早出 现时 间 点 s 为 2007 年 ,逐年 计算 其 
历年 环比 增长 率 , 发 现 rg (2008) = (129 -2)/2 = 
63.5, 而 2008 -2014 年 度 , 相 关 文 献 量 一 直 保 持 增长 
趋势 直至 到 达 一 个 较 高 数据 量 水 平 上 , 称 这 一 段 时 间 
为 候选 新 术语 的 成 长 期 ;而 自 2015 年 往 后 ,环比 增长 
率 出 现 正 负 范围 较 小 幅度 的 波动 , 称 这 一 时 期 为 术语 
的 饱和 期 。 区 别 于 成 长 期 的 正 向 增长 趋势 ,这 一 时 间 
段 术语 的 文档 词 频 保 持 在 一 个 稳定 水 平 ,会 出 现 较 小 
幅度 的 增长 甚至 减少 。 

“ 云 计 算 ” 这 种 热 词 的 词 频数 量 级 高 ,成 长 趋势 明 
品 3 短 期 内 便 可 认定 为 新 术语 。 大 多 数 术 语 的 数量 级 
假 ,但 其 词 频 成 长 分 布依 然 存在 以 上 趋势 ,以 2014 
语 主题 词 表 ) 中 冶金 工业 领域 的 已 收录 术语 “ 连 

*2 词 为 例 , 该 术语 在 相应 的 1991 年 版 《汉语 主题 词 
开口 尚未 收录 ,其 在 该 学 科 领 域 下 文档 词 频 随时 间 的 
分 在 情况 及 对 应 环比 增长 率 如 图 1 中 (b) 所 示 。1991 


于 判断 识别 新 术语 。 本 文 从 时 间 点 及 时 间 段 角度 出 
发 ,利用 环比 增长 率 指标 ,确定 术语 的 两 个 关键 时 间 
点 ,出 现时 间 点 及 正 向 增长 转折 点 。 出 现时 间 点 的 确 
定 可 以 有 效 确定 对 候选 新 术语 观察 时 间 段 的 确定 ,而 
术语 自 * 正 向 增长 转折 点 "后 一 般 经 过 5 年 左右 的 时 间 
可 以 达到 与 成 熟 期 较 接 近 的 频数 ,为 及 时 发 现 新 术语 ， 
可 认为 当 术语 处 于 成 长 期 一 定年 限 , 便 可 以 判断 其 能 
作为 成 熟 新 术语 ,以 添加 到 对 应 叙 词 表 中 。 总 之 ,将 新 
术语 的 出 现时 间 点 s 作为 起 始 时 间 点 ,研究 候选 新 术 
语 的 DF 分 布 情况 , 当 研 究 时 间 段 内 存在 正 向 增长 转 
折 点 , 即 增长 趋势 明显 并 持续 保持 一 段 时 间 , 即 认为 该 
候选 新 术语 处 于 成 长 期 。 当 处 于 成 长 期 的 候选 新 术语 
超过 “ 正 向 增长 转折 点 ”一 定年 限 , 则 可 以 认为 该 术语 
同时 具有 新 家 性 \ 时 间 持 续 性 及 术语 性 ,从 而 能 添加 到 
对 应 词 表 中 作为 新 术语 。 


3 ”实证 与 分 析 
3.1 数据 来 源 介绍 
本 文选 择 中 国 知 网 数据 库 作为 候选 词 来 源 ,选择 


-已 前 , 即 在 1981 - 1990 年 间 ,“ 连 铸 ” 一 词 均 保持 每 
E 10 篇 左右 的 文献 出 现 ,其 逐年 环比 增长 率 有 较 高 
信 伍 却 不 满足 后 续 的 持续 增长 , 即 不 满足 " 正 向 增长 转 
拆 息 "的 条 件 ,这 一 段 时 间 即 为 新 术语 的 “开始 期 ”。 
该 晤 期 的 特征 是 候选 词 的 文档 词 频数 在 整个 时 间 段 内 
都 感 于 一 个 较 低 水 平 , 不 曾 出 现 增长 率 明显 的 “ 正 向 增 
长 转折 点 ” ,而 相应 地 ,其 在 1991 年 《汉语 主题 词 表 》 
中 末 被 选取 ;反而 是 在 1993 年 ,其 词 频 增长 率 (42 - 
220/22 =0. 909, 且 往 后 有 超过 5 年 以 上 的 词 频 增长 
期 , 即 1993 -2004 年 度 为 该 术语 的 成 长 期 ;而 再 往 后 ， 
即 从 2005 年 往 后 ,可 认为 这 一 时 期 属于 该 术语 的 饱和 
期 。 

同 理 ,分 别 给 出 短期 低频 词 “无 线 充电 ” .长 期 高 
频 词 “ 数 字 图 书馆 "的 文档 分 布 统计 及 对 应 环比 增长 
率 情况 ,如 图 1 中 (e) (qd) 所 示 ,其 中 “无 线 充电 "的 正 
向 增长 转折 点 确定 为 2009 年 ,“ 数 字 图 书馆 ”的 正 向 增 
长 转折 点 则 确定 为 1995 年 。 

可 以 看 出 ,不 同 词 频数 量 级 的 术语 尽管 由 于 研究 
热度 及 影响 力 的 差异 ,其 开始 期 的 持续 时 间 长 短 有 所 
差异 。 比 如 高 频 词 往往 开始 期 持续 时 间 极 短 ,低频 词 
的 开始 期 则 会 持续 多 年 ,但 它们 都 存在 较 明 显 的 成 长 
期 ,并 经 过 成 长 期 开始 过 渡 到 人 饱和 期 , 即 不 同类 别 术语 
一 般 情 况 下 都 满足 术语 分 布 规律 ,而 该 分 布 规律 可 以 
有 效 反 映 术 语 的 时 间 持续 性 及 术语 性 特征 ,因此 可 用 


该 对 象 的 原因 是 文献 数据 库 关键 词 可 以 作为 候选 术语 
并 用 于 氢 词 表 编制 及 更 新 维护 ,该 数据 库 中 数据 量 足 
够 大 且 柳 盖 时 间 范 围 较 广 ,能 获取 本 研究 所 需要 的 时 
间 及 学 科 领 域 信息 。 其 中 ,时 间 指 主题 词 对 应 文献 的 
发 表 时 间 ; 学 科 领 域 信息 则 以 中 国 知 网 数据 库 所 采用 
的 文献 分 类 目录 作为 本 文 的 学 科 领 域 分 类 ;另外 本 文 
研究 时 间 点 选取 为 “每 一 年 ”。 
3.2 新 术语 分 布 特征 验证 

为 验证 新 术语 一 般 性 地 处 于 成 长 期 , 即 具 有 明显 
增长 趋势 ,本 文选 取 2014 年 出 版 的 (汉语 主题 词 
表 》"”” 中 矿业 工程 领域 的 一 个 词 族 “ 煤 层 ” ,其 下 位 词 
术语 有 37 个 , 见 表 3 ,其 中 有 10 个 术语 是 相应 的 1991 
年 出 版 《汉语 主题 词 表 》' 中 的 已 收录 术语 , 记 为 实验 
组 A。 另 外 27 个 则 是 2014 年 《汉语 主题 词 表 》 相 比 
1991 年 的 新 增 术语 , 记 为 实验 组 B。 实 证 将 分 别 统计 
以 上 已 收录 术语 及 新 增 术语 文档 词 频 的 平均 环比 增长 
率 ,验证 新 增 术语 组 B 的 环比 增长 率 相 比 较 已 收录 术 
语 组 A 是 否 会 有 明显 差别 。 

利用 中 国 知 网 数据 库 高 级 检索 功能 ,限定 文献 分 
类 目录 为 “冶金 工业 ” ,在 该 学 科 领 域 下 ,限定 1991 - 
2017 年 的 时 间 范 围 ,以 词 族 中 各 术语 作为 检索 主题 
词 ,分 别 统计 各 年 检 出 文献 数 , 即 文档 词 频 值 ,得 到 对 
应 三 元 组 (w, 6，df) 。 以 年 为 单位 ,分 别 统计 各 年 A 
组 和 B 组 术语 的 平均 文档 词 频 值 ,其 中 ,平均 文档 词 频 
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RI “煤层 " 词 族 术语 
A 组 :1991 年 已 收录 术语 B 组 :2014 年 新 增 术 语 
突出 煤层 倾斜 煤层 保护 煤层 开采 煤层 夹 夺 煤 层 下 部 煤层 煤 体 结构 

AU: 瓦斯 煤层 本 煤层 邻近 煤层 坚硬 煤层 印 压 煤层 特殊 煤层 

多 煤层 曙 燃 煤层 单一 煤层 破碎 煤层 揭穿 煤层 Tta 煤层 特征 

厚 煤层 中 厚 煤层 断 失 煤 层 浅 理 煤 层 深部 煤层 自燃 煤层 
缓 倾斜 煤层 过 煤层 软 底 煤层 松软 煤层 近 距 离 煤层 
急 倾斜 煤层 三 软 煤 层 稳定 煤层 煤 体 构造 低 透气 性 煤层 

值 的 统计 以 当年 的 实际 词 量 作为 除数 。 最 后 ,在 此 基  ” 定 , 增 长 较为 平缓 ,说 明 已 收录 术语 更 多 地 处 于 术语 的 


础 上 逐年 计算 A 组 及 B 组 平均 词 频 值 的 环比 增长 率 ， 
统计 结果 如 表 4 所 示 : 
表 4 A、B 两 组 逐年 平均 词 频 值 及 环比 增长 率 统计 


ET A 组 。 APPERS — DADO BAD 
平均 词 频 — 环比 增长 率 (%) ”平均 词 频 — 环比 增长 率 (% ) 
17.4 2.6 
16.0 -8.05 21 -19.23 
16.3 1.88 AS 64. 84 
23.7 45.40 3.6 4.00 
20.6 —13.08 4.7 31.17 
20.5 —0.49 4.2 — 11.06 
20.1 -1.95 4.2 -0.62 
21.8 8.46 5.2 23.96 
23.0 5.50 5.4 3.89 
28.7 24.78 5.2 -4.11 
29.7 3.48 4.8 -5.97 
35.5 19.53 7.0 43.65 
50.0 40.85 10.4 48.97 
58.5 17.00 12-1 16.79 
68.9 17.78 16.5 36.39 
71.5 3. T] 18.3 10. 76 
95.2 33.15 21.0 14.98 
2008 110.3 15. 86 26.5 26.06 
2009 146.1 32.46 31,3 40. 78 
2010 167.2 14.44 40.5 8.43 
2011 189.7 13.46 47.4 17.20 
2012 222.0 17.03 52.6 10.85 
2013 207.4 -6.58 57.3 8.87 
2014 244.2 17.74 70.2 22.64 
2015 234.9 -3.81 67.9 -3.32 
2016 193.0 -17.84 60.3 -11.24 
2017 191.9 -0.57 65.7 9.04 


根据 表 4 中 A 组 和 B 组 逐年 的 平均 环比 增长 率 
值 , 制 作 折线 图 如 图 2 所 示 。B 组 在 2014 年 之 前 的 绝 
大 多 数 时 间 里 ,其 环比 增长 率 均 高 于 同一 时 期 的 A 组 ， 
说 明 新 术语 相 比 成 熟 的 已 收录 术语 在 同一 时 期 要 有 和 较 
为 明显 的 增长 趋势 ,增长 幅度 较 高 。 相 对 应 的 已 收录 
术语 A 组 尽管 其 平均 文档 词 频 值 要 高 ,但 数量 相对 稳 
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“饱和 期 ” ,而 新 术语 则 更 多 处 于 术语 的 “成 长 期 "。 男 
外 ,B 组 曲线 的 波动 程度 也 明显 高 于 A 组 ,其 反映 了 新 
术语 出 现 的 偶发 性 ,不 同 的 时 间 点 会 有 不 同 的 新 术语 
出 现 , 这 也 是 其 平均 文档 词 频 值 较 小 的 原因 。 总 之 , 实 
证 证 明 新 术语 更 多 地 处 于 成 长 期 ,根据 文档 词 频 分 布 
及 其 对 应 的 环比 增长 率 值 可 以 量化 术语 的 增长 及 分 布 
趋势 。 当 候选 新 术语 保持 正 向 增长 趋势 超过 一 定年 
BR , 则 认为 该 术语 同时 具有 新 颖 性 时间 持续 性 及 术语 
性 特征 ,可 以 考虑 将 其 更 新 到 对 应 词 表 中 。 


1 *—AÍB; 1991 年 已 收录 术语 
0.9 ^ 一 * B4: 2014 年 新 增 术语 


增长 率 
e 
e 


2 A.B 两 组 平均 环比 增长 率 对 比 情况 


3.3 ”基于 分 布 特征 的 新 术语 识别 

以 自动 化 技术 及 计算 机 技术 领域 (图 书 分 类 号 为 
TP) 为 例 ,获取 1989 -2018 年 间 , 分 类 号 为 TP 的 全 这 
文献 元 数据 ,共计 获取 256 余 万 条 。 根 据 文献 关键 词 
在 对 应 发 表 年 份 的 文档 词 频 值 , 共 形成 99 余 万 条 关键 
词 时 间 序 列 。 统 计 各 关键 词 的 总 词 频 , 过 滤 其 中 总 词 
频 小 于 20 的 关键 词 数据 后 ,共计 获取 28 674 个 关键 词 
及 对 应 时 间 序 列 作为 实验 数据 。 确 定 各 时 间 序 列 对 应 
的 开始 时 间 点 ,并 计算 关键 词 各 自 对 应 的 环比 增长 率 
序列 ,继而 根据 环比 增长 率 值 确 定 每 个 实验 数据 对 应 
的 “ 正 向 增长 转折 点 ”, 不 存在 则 记 为 0。 

利用 2014 年 最 新 出 版 的 《汉语 主题 词 表 》” 对 关 
键 词 进行 是 否 已 收录 的 标注 ,以 验证 方法 的 有 效 性 。 
确定 “ 正 向 增长 转折 点 "时 , 当 阔 值 设 为 4 和 -0.5 时 ， 
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du, 常春 , 刘 伟 . 面向 叙 词 表 更 新 的 新 术语 分 布 特征 研究 [J]. 图 书 情报 工作 ,2019 ,63 (20) :121 -128. 


即 在 “ 正 向 增长 转折 点 ”后 连续 4 年 rg > -0.5 时 ,有 
72% 的 汉 表 已 收录 词 ,可 以 用 本 文 方法 预测 到 该 词语 
收录 到 词 表 中 的 时 间 ( 预 测 收录 时 间 = 正 向 增长 转折 
点 时 间 +4)。 可 见 术语 在 成 长 分 布 中 绝 大 多 数 都 经 历 
过 术语 成 长 期 ,而 当 阔 值 设 为 4 以 下 及 小 于 -0.5 时 ， 
满足 该 规律 的 术语 比例 更 大 。 但 本 文 识别 新 术语 时 ， 
为 了 保证 识别 的 准确 率 ,选择 国 值 为 4 和 -0.5。 


对 汉 表 未 收录 词 ,共计 10 296 个 ,使 用 同样 方法 ， 
获取 满足 正 向 增长 转折 点 后 4 年 连续 增长 的 数据 ,并 
过 滤 其 中 通用 词 ,将 预测 收录 时 间 为 2015 - 2018 年 的 
关键 词 作为 候选 新 术语 ,共计 673 个 。 经 4 汉语 主题 词 
表 》 编 制 相 关 专 家 判定 ,该 部 分 91.7% 的 词 均 可 以 作 
为 新 术语 补充 到 词 表 中 。 对 候选 新 术语 结果 , 按 总 词 
频 排 序 ,选取 前 .中 、 后 各 10 个 词 示 例如 表 5 所 示 : 


表 5 新 术语 识别 部 分 结果 展示 


序号 候选 新 术语 
1 -10 深度 学 习 卷 积 神经 网 络 软件 定义 网 络 CC2530 App 
[E dou Kinect 大 数据 时 代 Android 系统 
309 -310 话题 发 现 混沌 算法 局 部 敏感 哈 希 邻 域 信息 能 量 最 小 化 
社区 检测 淹 源 系统 消息 推送 虚拟 机 放置 短文 本 分 类 
665 -674 图 像 模拟 BZZ 显著 性 图 消费 行为 旋转 森林 
Y 遥感 (RS ) 有 源 RFID 语义 相关 性 预警 信息 元 启发 式 算法 


-本 文 方法 在 新 术语 收录 判断 中 具有 较 高 的 准确 
化 ?分 析 候 选 新 术语 对 应 的 总 词 频 , 不 仅 高 频 新 术语 可 
以 被 识别 出 来 ,例如 “深度 学 习 ”( df =1603)“ 卷 积 神 
经 网 络 "(df - 1396) 等 词 ,同时 实际 应 用 中 占 比较 多 的 
低 医 新 术语 也 能 被 识别 出 来 ,例如 "元 启发 式 算法 ”( df 
€ 


-0) “有 源 RFID" (df =20) 等 。 


~ 


TEE 
文 基于 新 术语 的 新 颖 性 和 术语 性 特征 ,以 《汉语 
主 感 j 表 》 已 收录 术语 为 例 ,通过 相关 统计 分 析 ,研究 


及 三 间 段 角度 出 发 ,利用 环比 增长 率 指标 ,确定 术语 的 
WAS ERST [RT p, ,出 现时 间 点 及 正 向 增长 转折 点 ,出 现 
时 间 点 作为 观察 术语 成 长 分 布 的 起 点 , 正 向 增长 转折 
点 则 作为 划分 术语 开始 期 及 成 长 期 的 标志 时 间 点 ,并 
利用 文档 词 频 逐 年 分 布 的 趋势 图 ,研究 术语 在 开始 期 、 
成 长 期 以 及 饱和 期 的 文档 词 频 分 布 差异 以 及 指标 变化 
情况 。 实 证 证 明 新 术语 更 多 地 处 于 成 长 期 , 当 候 选 新 
术语 保持 正 向 增长 趋势 超过 一 定年 限 , 则 认为 该 术语 
同时 具有 新 颖 性 时间 持续 性 及 术语 性 特征 ,可 以 考虑 
将 其 更 新 到 对 应 词 表 中 。 通 过 对 自动 化 技术 及 计算 机 
技术 领域 的 新 术语 识别 效果 分 析 ,证明 本 文 提 出 的 新 
术语 分 布 规律 可 以 有 效应 用 于 叙 词 表 的 新 术语 收录 评 
估 中 。 

由 于 目前 的 研究 所 采用 的 学 科 领 域 是 指 已 经 确定 
好 的 领域 ,而 当 候 选 新 术语 属于 新 兴 领 域 及 小 规模 领 
域 时 ,新 术语 的 成 长 分 布 情况 可 能 会 有 所 差别 。 因 此 ， 


还 需要 在 更 多 学 科 领 域 中 进一步 完善 和 发 展 本 文 的 研 
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Research on the Distribution Characteristics of New Terminology 


© for the Update of the Thesaurus 


Lei Xiao Chang Chun Liu Wei 
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Abstract: | Purpose/ significance | In order to enhance the practicability of thesaurus, it is necessary to constantly 


ujfàte new terms in the field to thesaurus. In the process of updating and maintenance, we should explore the distribution 


characteristics of new terms from the perspective of time and frequency, which can provide reference for the method of dis- 


covering new terms. | Method/ process ] Based on the relevant characteristics of the new terminology, combined with the 


development distribution of the corresponding document frequency at time point and period, through the relevant statistical 


analysis , the distribution of terminologies in different development periods is studied, especially the characteristics of ter- 


minologies from the beginning to the maturity. [ Result/conclusion | It is proved that the new terminology is generally in 


thé growth stage of terminology. When the candidate new terminology keeps positive growth trend for more than a certain 


number of years, it is considered that the term has all novelty, time persistence and terminological features. Based on the 


distribution characteristics, the article selects a subject area to discover its new terminology. According to the judgment of 


the expert, the method has a high accuracy rate in the judgment of new term, and can effectively identify the low frequen- 


cy words which are more occupied in practical applications. 
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